روشی جدید جهت استخراج موجودیت‌های اسمی در عربی کلاسیک

نویسندگان

چکیده مقاله:

In Natural Language Processing (NLP) studies, developing resources and tools makes a contribution to extension and effectiveness of researches in each language. In recent years, Arabic Named Entity Recognition (ANER) has been considered by NLP researchers due to a significant impact on improving other NLP tasks such as Machine translation, Information retrieval, question answering, query result clustering, etc. While most of these researches are based on Modern Standard Arabic (MSA), in this paper, we focus on Classical Arabic (CA) literature. We propose a corpus called NoorCorp with 130k labeled words for research purposes which is annotated by expert human resources manually. This corpus is based on a Historic-Islamic book of 1200 years ago including 1843 sentences and 127550 words. We also collected about 18k proper names from old Hadith books as a gazetteer which is called NoorGazet used as a future. In this paper, we propose a new approach to extract named entities (NEs) including person, location, organization and time. We use hybrid approach benefiting from advantages of Rule based approach and Machine learning approach. We divided the NoorCorp into two parts of training and test sets containing 80% and 20% of the data set respectively. Prediction model, based on Boosting method, was developed in two steps which Adaboost.M1 is employed to identify NEs and Adaboost.M2 is employed to classify NEs. There are many methods using multiple classifiers as voters and summing up their results, among which, ensemble methods are those which generate multiple hypotheses using the same base learner. We developed an ensemble consisting of 50 members (classifiers) based on decision stump to implement the weak learner. Since only 17% of the text data is composed of name entity labels, we had to deepen the tree while restricting pruning. We exploited tokenizing, part of speech (POS) tagging, and base phrase chunking (BPC) to overcome linguistic obstacles in Arabic including Meaning ambiguity, Optional diacritics, Complex morphology and Nonstandard written text. Moreover, using a statistical technique, the most frequently used words extracted as key words. Results show that performance of the method is better than decision tree as the base classifier. An overall F-measure value of 86.85 obtained which is better than base line about 20% and CART decision tree about 12%. Since CA corpus consists of simpler linguistic patterns compared to MSA, we applied the proposed approach on ANERCorp as Modern Standard Arabic corpus. Results show that the proposed model outcome on CA corpus is about 19% better than MSA. This result is due to the fact that there are plenty of NEs entered to MSA from other languages. These proper names do not have specific patterns and do not exist in the gazetteer. In addition, many NE’s are not distributed uniformly in ANERcorp which considerably reduces the results accuracy.     

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

روشی جدید در استخراج مخروط افکنه‎ها از مدل رقومی ارتفاع

شناسایی و استخراج لندفرم های سطح زمین از داده ها رقومی در سال‎های اخیر، رشد و گسترش بسیار زیادی یافته اند. در این راستا مخروط افکنه ها در مناطق خشک از اهمیت بسیار زیادی برخوردارند. هدف این مطالعه ارائه‎ی روشی بهینه (سریع، دقیق، کم هزینه، و استفاده از حداقل داده‎ی مورد نیاز)، برای استخراج مرز مخروط افکنه ها از dem است. بدین منظور با استفاده از dem و روشی که در این پژوهش برای نخستین‎بار ارائه شده...

متن کامل

روشی جدید جهت محاسبه زاویه تماس قطره با سطوح

در این تحقیق، با استفاده از روش پردازش تصویر زاویه تماس قطره با سطح در حالت متقارن و نامتقارن بررسی و اندازه­گیری شد. در این روش زاویه تماس توسط آنالیز تصویر بدست می­آید و هیچ نیازی به مشخصات سیال و یا سطح جامد نیست. اساس فرایند اندازه­گیری، برطبق روش تقاطع همراه با تابع وزن گوسی است، به این صورت که در ابتدا نقطه تماس به صورت دقیق توسط اپراتور هریس مشخص و سپس یکسری از نقاط روی مرز قطره در نزدیک...

متن کامل

سیمای کرد در شعر کلاسیک عربی

پس از گسترش اسلام و پذیرش آن از طرف اقوام مختلف، فرهنگ اسلامی بستری برای احترام متقابل میان اقوام وملت­ها شد و شعر عربی نیز به جای ترویج نخوت قبیله­ای، به ترسیخ أخوت ایمانی پرداخت؛ اما در جامعة اسلامی و دنیای عرب، پس از فاصله گرفتن تدریجی از سرچشمه‌های تبعیض زدای دین، و به دنبال پیدایش دوبارة تعصّبات قبیله­ای پیش از اسلام، به ویژه در دورة عباسی، از یک سو نحله‌هایی چون شعوبیه، در واکنش به بی­عدال...

متن کامل

روشی جدید در قطعه بندی خودکار تصاویر ماهواره ای با دقت بالا برای استخراج خطوط ساحلی

The objective of this paper is to introduce a new method for coastlines delineation from high-resolution satellite images automatically. The proposed approach integrates the color histogram analysis for estimating the number of clusters, fuzzy c-partition, and genetic algorithms for optimizing fuzzy c-partition matrix. The imagery is classified into homogenous areas using the proposed fuzzy log...

متن کامل

مکتب کلاسیک جدید

مکتب کلاسیک جدید در اقتصاد کلان، اصول استاندارد تحلیل اقتصادی را برای شناخت چگونگی تعیین تولید کل یک ملت به کار می‌برد. از دیدگاه مکتب کلاسیک جدید، عرضه و تقاضا نتیجه اقدامهای اقتصادی و عقلانی خانوارها و بنگاهها است. مقادیر اقتصاد کلان مانند تولید ناخالص داخلی، نتیجه تعادل عمومی بازارها در یک اقتصاد است. تعجب‌آور است که این دیدگاه در اقتصاد کلان انقلابی به حساب آمده است. وقتی ماهیت فعلی تحلیل...

متن کامل

ارائه روشی جهت استخراج نسبی پارامترهای کیفی گیاه از تصاویر Hyperion با کاربرد در کشاورزی دقیق

تصاویر ابرطیفی با داشتن قدرت تفکیک طیفی بالا و تصویر برداری در محدوده طیفی باریک، قابلیت بسیار بالایی را در رابطه با بررسی و پایش گیاهان و محصولات کشاورزی دارا می باشند. با توجه به تعداد زیاد باند‌ها در تصاویر ابرطیفی، لزوم انتخاب باند بهینه برای مطالعه پارامتری خاص ضروری می‌باشد. بدین منظور می‌توان از باندهای جذبی مربوط به مواد مختلف گیاه و همچنین از شاخص هایی که بدین منظور تعریف شده‌اند، است...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 14  شماره 2

صفحات  59- 74

تاریخ انتشار 2017-09

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

کلمات کلیدی

کلمات کلیدی برای این مقاله ارائه نشده است

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023